ControlVideo Training-free Controllable Text-to-Video Generation

Authors:
Yabo Zhang Yuxiang Wei Dongsheng Jiang Xiaopeng Zhang Wangmeng Zuo Qi Tian

核心内容:

ControlVideo 改编自 ControlNet,采用完全跨帧交互(fully cross-frame interaction),保证了外观一致性,同时减少了生成图像的质量下降。其次,交错帧平滑器(interleaved-frame smoother)通过按顺序时间步插值交替帧来消除整个视频的闪烁。最后,分层采样器(hierarchical sampler)单独生成具有整体一致性的短剪辑,以实现长视频合成。

之前的方法存在的问题

以前的工作通常用稀疏的跨帧机制代替自注意力,例如,所有帧仅关注第一帧。然而,这些机制会增加自注意力模块中 Q和 K之间的差异,导致视频质量和一致性下降。

完全跨帧交互(fully cross-frame interaction)

将文本到图像模型适应视频模型的主要挑战是确保时间一致性。利用 ControlNet 的可控性,运动序列可以提供结构上的粗略一致性。即使使用相同的初始噪声,使用 ControlNet 单独生成所有帧也会导致外观严重不一致。为了保持视频外观连贯,我们将所有视频帧连接成一个“大图像”,以便可以通过帧间交互来共享它们的内容。考虑到 SD 中的自注意力是由外观相似性驱动的,我们建议通过添加基于注意力的完全跨框架交互来增强整体一致性。

交错帧平滑器(interleaved-frame smoother)

为了缓解帧之间的闪烁问题,实现帧与帧之间的平滑过渡,采用交错帧平滑器对去噪过程中的某些步骤中得到的去噪结果 zt 的每三项帧之间进行插值平滑,不是在 latent 空间做,而是在 piexl 空间做。具体做法是:

  1. 第一次是对偶数帧进行平滑(假设 i-2 是偶数),i-2 帧由 i-1 帧和 i-3 帧进行插值得到,将得到 zt 首先通过编码器 E 映射回像素空间,做完插帧后再通过编码器 E 映射回来。奇数帧是直接保留的。
  2. 第二次是对奇数帧进行平滑,对上一次没有进行插帧的帧进行插值,同样也是映射回像素空间。

分层采样器(hierarchical sampler

在有限的 GPU 资源和保证视频一致性的前提下,为了生成长视频(100 帧),论文提出了通过分成采样器一块一块地生成长视频。在每个去噪时间步中,根据选择出来的关键帧将长视频序列 zt 分为多个片段. 然后预先生成具有完全跨帧注意的关键帧以实现远程一致性,以每对关键帧为条件,依次合成其相应的片段,保持整体一致性:
关键帧的 attention 为: Qkey=WQztkey,Kkey=WKztkey,Vkey=WVztkey.
视频片段的 attention 为:
Q^k=WQz^tk,K^k=WK[ztkNc,zt(k+1)Nc],V^k=WV[ztkNc,zt(k+1)Nc].

正在加载今日诗词....

📌 Powered by Obsidian Digital Garden and Vercel
载入天数...载入时分秒... 总访问量次 🎉